Java Technologies উদাহরণ সহ Tika REST API Integration গাইড ও নোট

395

অ্যাপাচি টিকা (Apache Tika) REST API-র মাধ্যমে সহজেই অন্যান্য অ্যাপ্লিকেশন বা সার্ভিসের সাথে সংযোগ স্থাপন করে ডকুমেন্ট প্রসেসিং এবং টেক্সট এক্সট্র্যাকশন করতে পারে। REST API ব্যবহার করে আমরা ফাইল আপলোড করে মেটাডেটা (Metadata) এবং টেক্সট (Text) এক্সট্র্যাক্ট করতে পারি।


Tika Server চালু করা

Tika REST API ব্যবহার করতে হলে প্রথমে Tika Server চালু করতে হবে।

Tika Server ডাউনলোড ও চালু করা

  1. Apache Tika Server JAR ফাইল ডাউনলোড করুন: Apache Tika Download
  2. নিচের কমান্ড দিয়ে সার্ভার চালু করুন:
java -jar tika-server-standard-2.x.jar

উপরের কমান্ডের মাধ্যমে Tika Server 9998 পোর্ট এ রান করবে (ডিফল্ট পোর্ট)।


Tika REST API Integration উদাহরণ

REST API ব্যবহার করে ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। এখানে একটি উদাহরণ দেওয়া হলো যেখানে Python এবং cURL ব্যবহার করা হয়েছে।


উদাহরণ: Python দিয়ে Tika REST API

Python ব্যবহার করে Tika REST API এর মাধ্যমে ফাইল প্রসেস করার উদাহরণ:

প্রয়োজনীয় প্যাকেজ ইন্সটল

pip install requests

কোড উদাহরণ:

import requests

# Tika Server এর URL
tika_server_url = "http://localhost:9998/tika"

# প্রসেস করতে চাওয়া ফাইল
file_path = "example.pdf"

# ফাইলটি Tika Server এ পাঠিয়ে টেক্সট এক্সট্র্যাক্ট করা
with open(file_path, 'rb') as file:
    headers = {'Accept': 'text/plain'}
    response = requests.put(tika_server_url, headers=headers, data=file)

# সার্ভার থেকে রেসপন্স চেক করা
if response.status_code == 200:
    print("Extracted Text:")
    print(response.text)
else:
    print(f"Error: {response.status_code}")

উদাহরণ: cURL ব্যবহার করে REST API কল

cURL এর মাধ্যমে Tika Server এ ফাইল পাঠিয়ে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়।

টেক্সট এক্সট্র্যাকশন

curl -T example.pdf http://localhost:9998/tika --header "Accept: text/plain"

মেটাডেটা এক্সট্র্যাকশন

curl -T example.pdf http://localhost:9998/meta

রেসপন্স আউটপুট

  1. টেক্সট আউটপুট (Text Extraction):
This is an example document.
It contains sample text.
  1. মেটাডেটা আউটপুট (Metadata Extraction):
{
  "Content-Type": "application/pdf",
  "Creation-Date": "2024-06-01T10:00:00Z",
  "X-Parsed-By": ["org.apache.tika.parser.DefaultParser"],
  "Author": "John Doe",
  "Producer": "Acrobat PDFWriter"
}

সার্ভারের রেসপন্স টাইপ

Tika REST API ব্যবহার করে Accept Header সেট করে বিভিন্ন আউটপুট ফরম্যাট পাওয়া যায়।

Accept Headerআউটপুট
text/plainশুধুমাত্র প্লেইন টেক্সট
application/jsonJSON ফরম্যাটে মেটাডেটা
application/xmlXML আকারে আউটপুট

সারাংশ

Apache Tika REST API ব্যবহার করে সহজেই ফাইল প্রসেসিং ও ডেটা এক্সট্র্যাকশন করা যায়। সার্ভারটি চালু করে HTTP PUT/POST রিকোয়েস্টের মাধ্যমে বিভিন্ন ধরনের ফরম্যাট থেকে টেক্সট এবং মেটাডেটা সংগ্রহ করা সম্ভব। Python, cURL এবং অন্যান্য টুল দিয়ে সহজেই এটি ইন্টিগ্রেট করা যায়।

Content added By
Promotion

Are you sure to start over?

Loading...